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摘 要 : [目的 /意义 ] 提 出 利用 丰富 的 论文 关键 词 知识 获取 专利 文本 之 外 的 有 效 特 征 ,以 弥补 因 专 利文 本 集 自 身 信息 不 足 
而 制约 专利 术语 抽取 效果 这 一 缺陷 ,提高 专利 术语 抽取 准确 率 。|[ 方法 过程] 根据 相关 论文 的 关键 词 知 识 ,分别 
提出 领域 相关 度 和 首尾 度 两 个 特征 ,以 衡量 候选 术语 成 为 术语 的 可 能 性 ,并 将 这 些 特 征 融 入 到 专利 术语 抽取 的 传 
统 方法 之 中 。[ 结果 /结论 ] 实验 结果 表明 ,利用 论文 关键 词 得 到 的 候选 术语 领域 相关 度 和 首尾 度 信 息 , 可 使 结合 
论文 关键 词 知识 的 方法 比 传统 的 术语 抽取 方法 的 准确 率 有 了 明显 的 提升 。 
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专利 文献 是 技术 信息 的 重要 来 源 ,有 效 的 专利 文 
献 税 析 对 国家 经 济 .科技 ,民生 的 发 展 起 着 至 关 重要 的 
从 息 。 其 中 ,专利 文献 中 的 术语 为 专利 文献 分 析 提 供 
了 缚 构 化 知识 单元 ,体现 和 承 裁 了 专利 文献 的 技术 信 

3 成 为 诸多 专利 文献 分 析 的 关键 组 成 部 分 。 因 此 ,从 
专利 文献 中 通过 无 人 工 干预 或 尽量 少 的 人 工 干预 的 方 
法 得 动 抽 取 专利 术语 是 一 个 重要 的 研究 课题 。 

- 僻 C-value 方法 "是 一 种 常用 的 基于 统计 的 术语 抽 
取 急 法 ,在 长 术语 抽取 方面 表现 较 好 。 然 而 , C-value 
方法 主要 基于 术语 频次 计算 ,存在 低频 术语 无 法 被 识 
别 (如 , 词 串 “功能 化 石墨 烯 " 因 在 专利 文本 集中 出 现 
次 数 较 少 ,而 没有 被 正确 抽取 ) 以 及 部 分 边界 识别 不 正 
确 ( 如 ,包含 边界 词 “ 通 入 "的 词 串 “ 通 入 惰性 气体 " 因 
在 专利 文本 集中 出 现 次 数 较 多 ,而 被 错误 地 抽取 ) 等 问 
题 ” ,抽取 准确 率 仍 有 较 大 提升 空间 。 

高 质量 论文 是 科学 研究 的 主要 输出 形式 ,是 专利 

的 主要 理论 来 源 与 知识 源泉 ” 。 相 应 地 ,专利 是 技术 
创新 的 成 果 体现 ,为 科学 研究 启示 问题 .拓展 研究 空 
间 、 激 发 创新 灵感 。 特 别 是 近年 来 ,科学 研究 和 技术 创 


新 之 间 的 交互 作用 日 益 活 跃 ,两 者 之 间 的 关系 愈 发 紧 
密 ,使 得 论文 和 专利 具有 较 强 的 相关 性 。 论 文中 通常 
包含 作者 标 引 的 描述 全 文 主题 内 容 的 关键 词 。 关 键 词 
标 引 不 是 随意 的 ,一 般 为 特定 领域 成 熟 术语 或 词 
组 ””。 因 此 ,为 了 弥补 因 专利 语 料 自身 的 信息 不 足 
而 制约 专利 术语 抽取 效果 这 一 缺陷 ,本 文 首 次 提出 利 
用 丰富 的 论文 关键 词 知识 获取 专利 文本 之 外 的 有 效 特 
征 ,以 提高 专利 术语 抽取 效果 。 方 法 是 根据 相关 论文 
的 关键 词 知识 ,分 别提 出 两 类 特征 衡量 候选 术语 成 为 
术语 的 可 能 性 ,并 将 这 些 特征 融入 到 C-value 方法 之 
中 ,以 提高 专利 术语 抽取 的 准确 率 。 


2 相关 工作 


2.1 术语 抽取 

目前 的 术语 抽取 方法 可 分 为 基于 统计 的 方法 和 基 
于 机 融 学 习 的 方法 两 大 类 。 

基于 统计 的 方法 通过 计算 统计 量 来 评估 词 串 成 为 
术语 的 可 能 性 ,具有 较 少 人 工 干 预 较 强 的 适应 性 和 可 
移植 性 等 优点 ,一般 使 用 术语 性 和 单元 性 度量 候选 术 
语 成 为 术语 的 可 能 性 。 术 语 性 从 术语 的 隶属 度 出 发 ， 
衡量 一 个 候选 术语 与 特定 领域 的 相关 程度 。 和 常用 的 术 
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语 性 统计 量 有 词 频 “ ,TF-IDF'” 、C-value "| 方法 等 。 该 
类 方法 主要 基于 术语 频次 计算 ,存在 低频 词 无 法 被 识 
别 以 及 部 分 边界 识别 不 正确 等 问 提 。 针 对 这 些 问 题 ， 
目前 也 有 一 些 改进 研究 *-" ,总 的 来 说 ,较为 典型 的 改 
进 方法 包括 引入 互信 息 和 邻接 炉 "两 种 统计 量 , 以 重 
构 目 标 函 数 。 然 而 ,研究 结果 表明 ,这 些 方法 的 改进 仍 
有 较 大 的 提升 空间 。 单 元 性 度量 候选 术语 结构 的 稳定 
程度 , 即 候选 术语 内 部 各 组 成 部 分 之 间 的 结合 强度 。 
其 中 ,互信 息 是 一 种 常用 的 单元 性 指标 " ,互信 息 通 
过 计算 候选 术语 中 各 词 成 分 的 共 现 频次 来 衡量 这 些 成 
分 之 间 的 依赖 程度 ,能够 较 好 地 反映 字 串 之 间 的 结合 
强度 ,但 会 过 高 估计 低频 且 总 是 相 邻 出 现 的 字 串 间 的 
强度 。 一 些 研究 尝试 改进 这 个 问题 “"1 ,但 结果 仍 有 
较 大 提升 空间 。 

基于 机 器 学 习 的 方法 通过 学 习 训练 文本 特征 构造 
模型 抽取 术语 。 基 于 机 器 学 习 的 方法 可 以 弥补 基于 统 
证 机 方 法 无 法 识别 低频 术语 的 缺陷 ,利用 数据 学 习 模 
现 引 间断 词 串 成 为 术语 的 可 能 性 。 常 用 的 机 器 学 习 方 
法 印 括 最 大 粹 模型 ,条件 随机 场 模型 "” -六 等 。 但 基 
开 现 器 学 习 的 方法 需要 大 规模 人 工 标注 语 料 作 为 训练 
交 所 ,对 训练 语 料 的 规模 与 质量 要 求 较 高 ,并 且 ,基于 
枯 需 学 习 的 方法 还 不 成 熟 ,需要 进行 更 多 的 尝试 与 验 
证 5 站 。 目 前 专利 文献 没有 有 针对 性 的 .完备 的 .大 规 
模 标 注 语 料 , 基 于 统计 的 方法 可 以 在 极 低 人 工 干预 下 


计 答 方法 抽取 专利 术语 。 
2.@) 论文 与 专利 的 相关 性 

科学 研究 与 技术 发 明 相互 作用 ,在 知识 传递 与 反 
僻 中 旋 进 发 展 ”*。 近 年 来 ,国内 外 相关 研究 表明 论文 
和 专利 具有 较 强 的 相关 性 。 

在 国外 ,F. Narin 等 ”选取 生物 医学 杂志 以 及 美 
国 专利 商标 局 专利 数据 库 中 与 生物 技术 相关 的 专利 ， 
分 析 论文 与 论文 的 引用 关系 .专利 与 专利 的 引用 关系 、 
以 及 专利 与 论文 间 的 引用 关系 ,揭示 高 科技 技术 与 科 
学 之 间 的 关系 十 分 紧密 ,论文 与 专利 间 具 有 较 强 的 相 
关 性 。F. Narin 等 还 发 现 科学 与 技术 建 的 知识 关联 程 
度 每 6 年 会 增加 2 倍 交 。T. Magerman 等 二 以 专利 发 
明 人 发 明 者 身份 与 论文 作者 双重 身份 ,或 专利 发 明 人 
和 科研 学 者 共同 合作 关系 为 切 人 点 ,使 用 LSA 文本 控 
气 方 法 发 现 专利 文献 与 论文 间 存 在 较 高 的 相似 性 。 
Y. Qi 等 9 通过 大 规模 收集 纳米 科学 领域 专利 和 论文 ， 
利用 主题 关键 词 提取 语义 级 主题 ,揭示 了 论文 与 专利 


之 间 的 相关 性 。H. Huang 等 ”分 析 了 燃料 电池 领域 
论文 和 专利 的 交叉 引用 情况 ,表明 燃料 电池 领域 的 科 
学 与 技术 关联 呈现 逐渐 增加 的 收敛 性 。 

在 国内 , 吴 菲 菲 等 吧 通过 论文 与 专利 之 间 的 引用 
关系 ,结合 社会 网 络 分 析 方法 ,发 现 科 学 领域 和 技术 领 
域 之 间 存在 相互 作用 关系 。 特 别 地 , 近 十 年 来 化 学 . 通 
讯 计算机、 医疗 器 械 \、 测 量 等 领域 技术 对 科学 影响 很 
大 ;化 学 物理. 生物、 医学 等 领域 科学 研究 成 果 对 专利 
成 果 的 形成 具有 普遍 影响 。 彭 疹 淇 等 ”使 用 引文 分 
析 法 与 专利 计量 法 对 石墨 烯 领域 专利 和 论文 进行 交叉 
引用 分 析 , 揭 示 了 该 领域 中 科学 与 技术 的 关联 性 。 黄 
鲁 成 等 ”运用 文本 挖掘 方法 并 在 完善 SAO 结构 基础 
上 ,发现 钙 詹 矿 太阳 能 电池 领域 中 论文 和 专利 的 相似 
性 。 


3 融合 论文 关键 词 知 识 的 专利 术语 抽取 
方法 

针对 目前 术语 抽取 存在 的 问题 ,本 文 提 出 融合 论 
文 关 键 词 知识 的 专利 术语 抽取 方法 。 方 法 流程 见 图 
1 ,主要 包括 预 处 理 ( 见 3.1 小 节 )、 候 选 术语 选取 ( 见 
3.2 小 节 )、C-value 值 计算 ( 见 3.3 小 节 )、 基 于 关键 词 
特征 统计 ( 见 3.4 小 节 ) 和 C-value 值 更 新 ( 见 3.5 小 
节 ) 等 5 个 主要 步骤 。 


专利 候选 术语 C-value 值 value 
文本 集 wie | 选取 - 计算 | 


图 1 融合 论文 关键 词 知识 的 专利 术语 
抽取 方法 流程 


3.1 预 处 理 

首先 对 收集 的 专利 文本 集 和 论文 文本 集 进 行 预 处 
理 。 预 处 理 主要 包括 分 词 .词性 标注 、 去 除 停 用 词 等 工 
作 。 其 中 ,由 于 中 文 文本 词 与 词 之 间 没 有 明显 的 切 分 
标记 ,需要 通过 分 词 把 一 个 句子 按照 其 中 词 的 含义 进 
行 切 分 。 词 性 标注 的 任务 是 分 词 后 为 句子 中 的 每 个 词 
赋予 一 个 合适 的 词性 。 去 除 停 用 词 则 通过 通用 停 用 词 
表 以 及 人 工 筛选 去 除 频 率 高 但 是 信息 量 少 的 词 , 如 


105 


图 襄 情 荫 三 作 


第 64 卷 第 14 期 2020 年 7 月 


天， VY i 全 1 作 甘 工 
ChinaXiv 合 作 期 刊 


“的 “了 ”“ 发 明 ” 等 词 。 此 外 , 预 处 理工 作 还 包括 英 
文大 小 写 格式 转换 ,去除 特殊 符号 等 工作 。 
3.2 ”候选 术语 选取 

术语 中 一 般 不 包含 连词 .介词 .助动词 .副词 和 标 
点 符号 ,因此 ,在 候选 术语 选取 步骤 中 ,使 用 人 工种 
的 语法 规则 ,从 语 料 中 选取 候选 术语 。 词 性 模式 匹配 
方法 根据 特定 的 词性 排列 模式 ,以 选取 名 词 短语 作为 
候选 术语 ,本 文 使 用 文献 ”的 词性 模式 匹配 规则 选取 
候选 术语 。 词 性 模式 匹配 规则 如 表 1 所 示 , 其 中 a 表 
示 形 容 词 ,b 表示 区 别 词 ,e 表示 连词 ,d 表示 副词 ,k 表 
示 后 接 成 分 ,1 表示 习 语 ,m 表示 数 词 ,n 表示 名 词 ,u 表 
示 助 词 ,v 表示 动词 ,wn 表示 对 应 位 置 即 可 是 动词 也 可 
是 名 词 ,加 号 表示 多 词 术语 由 相应 词性 的 词组 合 而 成 。 

于 = 表 1 中 文 专利 候选 术语 词性 模式 匹配 规则 "” 

词性 模式 匹配 规则 


n+nn+vv+na+nd+nb+n 


训 


n+n+nVv+n+nmn+v+nv+v+nb+v+nn+m+n 


a 


v+v+n+nv+n+b+n 


v+v+n+n+nsd+v+n+n+nm+v+m+n+nb+v+n+Vv 二 


nn+n+v+n+nva+n+v+n+Dn 


n+n+c+vn+n+nn+n+Vvn+Cc +v+nn+n+u+b+v+n、 


v+n+v+c+v+nJ+v+k+n+v+nn+v+u+n+vn+n 


"3 C-value 值 计 算 
_ 伍 C-value 方法 为 每 个 候选 术语 计算 术语 性 ,C-value 
与 恋 候选 术语 在 语 料 中 的 频次 有 关 ,频次 越 高 ,其 术语 
度 左 大 。 在 此 基础 上 ,又 考虑 了 候选 术语 的 长 度 ,认为 
长 党 出 现 频次 比 短 串 出 现 频次 更 有 意义 ,是 术语 的 可 
能 辐 更 大 。C-value 值 计算 公式 如 下 : 
log lw wf 


x 未 被 胶 套 


-value(x) = 
0 |ogpl do -让 3)) 其 他 


公式 (1) 
其 中 ,x 表示 候选 术语 ;1x1 表 示 x 的 长 度 ;f(x) 表 
示 x 在 专利 文本 集中 出 现 的 频次 ;T, 表示 专利 文本 集 
包含 x 的 候选 术语 集合 ; 1T, | 表示 专利 文本 集 包含 T、 
中 元 素 个 数 。 
3.4 基于 关键 词 特征 统计 
如 引言 中 所 述 ,C-value 方法 主要 考虑 候选 术语 出 
现 频次 这 一 因素 ,从 而 产生 低频 术语 无 法 被 识别 以 及 
部 分 边界 识别 不 正确 等 问题 。 而 论文 和 专利 具有 较 强 
的 相关 性 , 且 论 文中 关键 词 一 般 为 特定 领域 成 熟 术 语 
或 词组 。 因 此 ,针对 C-value 存在 的 两 个 问题 ,本 文学 
斌 利用 论文 关键 词 知识 ,分 别提 出 候选 术语 的 领域 相 


关 度 ( 见 3.4.1 节 ) 和 首尾 度 ( 见 3.4.2 节 ) 两 个 统计 
特征 ,以 弥补 C-value 主要 考虑 词 频 因素 的 不 足 ,从 而 
提高 术语 的 抽取 准确 率 。 
3.4.1 领域 相关 度 
针对 C-value 无 法 识别 低频 术语 的 问题 ,本 文 提 出 
利用 候选 术语 在 论文 文本 集中 作为 关键 词 出 现 的 频 
次 ,衡量 该 候选 术语 的 领域 相关 度 。 例 如 ,虽然 候选 术 
语 “ 功 能 化 石墨 烯 ”在 专利 文本 集中 出 现 频 次 较 低 ， 
但 其 在 论文 文本 集中 作为 关键 词 频繁 出 现 , 则 表明 该 
候选 术语 具有 和 较 高 的 领域 相关 度 , 依 然 可 以 推论 该 候 
选 术语 可 能 是 术语 ,从 而 缓解 C-value 方法 无 法 识别 低 
频 术 语 的 问题 ,提高 术语 抽取 的 准确 率 。 因 此 ,给 定 候 
选 术语 *, 其 领域 相关 度 D(x) 为 : 
D(x) =N(x) 公式 (2) 
其 中 ,N(x) 表 示 z 在 论文 文本 集中 作为 关键 词 出 
现 的 频次 。 
然而 ,由 于 术语 表达 的 灵活 性 ,特别 是 专利 申请 人 
为 了 扩大 所 申请 专利 的 保护 范围 和 提高 专利 授权 的 可 
能 性 ,往往 使 用 一 些 模 糊 的 术语 和 表达 ,造成 论文 文本 
集中 与 候选 术语 精确 匹配 的 关键 词 有 限 。 例 如 , 当 候 
选 术语 “化 学 气相 沉积 "在 论文 文本 集中 没有 作为 关 
键 词 出 现时 , 则 该 候选 术语 的 领域 相关 度 为 0。 因 此 ， 
本 文 将 候选 术语 与 论文 关键 词 的 精确 匹配 放宽 为 模糊 
匹配 , 即 利用 与 候选 术语 词 面相 似 的 关键 词 衡量 该 候 
选 术 语 的 领域 相关 度 。 如 ,候选 术语 “化 学 气相 沉 
耻 ” 虽然 没有 与 其 精确 匹配 的 关键 词 ,但 是 可 以 利用 
“化 学 气相 沉积 法 ”“ 常 压 化 学 气相 沉积 ”等 模糊 
匹配 的 相似 关键 词 计算 其 领域 相关 度 。 因 此 ,给 定 候 
选 术语 x 和 关键 词 , 更 新 x 领域 相关 度 D(x): 
D(x) = >sim(%x,k) xN(E) 公式 (3) 
其 中 ,N(%) 表 示 关 键 词 在 论文 文本 集中 出 现 的 
频次 ,sim(x*, 5) 表示 候选 术语 x 与 关键 词 的 相似 度 ， 
使 用 经 典 的 Dice 系数 衡量 候选 术语 x 与 分 词 后 关键 词 
上 间 的 相似 度 ,其 计算 公式 为: 


IxMEl pk 
[x|l + El 公式 (4) 


其 中 , 1x hl 表示 候选 术语 与 分 词 后 关键 词 .4 
中 相同 词语 数 , Ix! 表示 候选 术语 包含 词语 数 ,1 | 表 
示 分 词 后 关键 词 中 词语 数 。 例 如 ,候选 术语 “化 学 
气相 沉积 ”与 关键 词 “化 学 气相 沉积 法 "的 相似 度 
3 


sim =2 X34=0.86。 表 2 为 候选 术语 “功能 化 石墨 


烯 " 和 “化 学 气相 沉积 ”的 领域 相关 度 计算 示例 。 由 


sim(x,k) =2 x 
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表 2 可 见 ,候选 术语 利用 论文 文本 集中 相似 关键 词 出 
现 的 频次 ,计算 其 领域 相关 度 , 从 而 缓解 低频 候选 术语 
无 法 被 正确 识别 的 问题 。 为 了 避免 不 相似 的 关键 词 干 
扰 , 本 文 仅 考 虑 大 于 相似 度 闵 值 6 的 关键 词 计 算 候选 
术语 领域 相关 度 。 

表 2 候选 术语 领域 相关 度 计算 示例 


相似 关键 词 


候选 术语 相似 关键 词 世 ,，。 ”领域 相关 度 
度 ”频次 
功能 化 石墨 烯 功能 化 石墨 燃 1.00 30 1.00x30+1.00x 
石墨 烯 功能 化 1.00 20 20+0.86x10= 
硅 功能 化 石墨 烯 0.86 10 58.6 


化 学 气相 沉积 ”化 学 气相 沉积 法 0.86 20 0.86x20+0.86x 


常 压 化 学 气相 沉积 0.86 10 10 =25.8 


计算 候选 术语 领域 相关 度 的 伪 代 码 如 下 : 
一 算法 :计算 候选 术语 的 领域 相关 度 
SS 输入 :候选 术语 .论文 关键 词 集 K 论文 集 Docs 
由 .候选 术语 的 领域 相关 度 D(x) 
了 D(x) = 0 /将 候选 术语 * 的 领域 相关 度 初始 值 设 置 为 0。 
CZ FOR 4 IN KDO // 对 论文 关键 词 集 中 的 每 个 关键 词 做 


寻 各 作 : 
= sim(zh) =2 x /根据 公式 (4) 计 算 候 选 术语 
号 党 广 关键 词 的 相似 度 。 


IF sim(x, 有 ) 三 6 DO /判断 候选 术语 x 与 论文 关键 词 
的 相似 度 是 否 大 于 赣 值 8， 
3 N(k) = COUNT(E，Docs) /统计 关 键 词 上 在 论文 集 
D5E 中 出 现 的 次 数 。 
D(x) = D(x) + sim(x,k) xN(k) // 如 果 候 选 术语 x 


与 论文 关键 词 上 相似 , 则 利用 公式 (3 ) 累计 求 和 计算 候选 术语 * 的 领 


域外 关 度 D(x)。 
台 


END IF 
8. END FOR 


3.4.2 首尾 度 

C-value 方法 的 第 二 个 主要 问题 为 部 分 边界 术语 
识别 不 正确 。 例 如 ,候选 术语 “ 通 入 惰性 气体 ” 因 其 
在 专利 集中 频繁 出 现 , 而 被 错误 地 将 边界 词 * 通 入 ” 作 
为 术语 的 一 部 分 。 而 利用 论文 关键 词 信息 ,可 以 发 现 
“ 通 入 "一 词 较 少 作为 关键 词 的 第 一 个 词 ( 即 , 首 词 )， 
从 而 推论 该 候选 术语 可 能 具有 错误 的 首 词 ,为 正确 术 
语 的 可 能 性 较 小 ;类 似 地 ,利用 关键 词 对 候选 术语 的 最 
后 一 个 词 ( 即 , 尾 词 ) 进 行 统计 ,推论 尾 词 的 正确 性 ,从 


具体 地 ,给 定 候选 术语 x = | wi, ws,…,w,| ,候选 
术语 首 度 HH\ 尾 度 T 和 首尾 度 HT 定义 分 别 如 下 : 


H(x) =H(w, * ) 公式 (5) 
T(x) =N( * ,w,) 公式 (6) 
HT(x) =min(H(x) ,T(x)) 公式 (7) 


其 中 ,N(wi, * ) 表 示 以 词 w 作为 首 词 的 关键 词 
频次 ,N( * ,zw ) 表 示 以 词 ww 作为 尾 词 的 关键 词 频次 ， 
min(H(x), T(%) ) 表 示 从 首 度 H(x) 和 尾 度 T(x) 中 取 
较 小 的 值 ,表明 只 要 候选 术语 首 词 或 者 尾 词 可 能 不 正 
确 , 则 该 候选 术语 就 可 能 不 是 术语 。 表 3 为 候选 术语 
“荧光 纳米 颗粒 "和 ”筛选 药物 "的 首尾 度 计算 示例 。 
由 表 3 可 见 , 候 选 专利 术语 “ 获 光 纳米 颗粒 ” 因 首 词 
“荧光 "和 尾 词 颗粒 ” 均 频 繁 出 现在 关键 词 首部 和 尾 
部 ,因此 具有 较 高 的 首尾 度 , 其 成 为 术语 的 可 能 性 较 
大 ;而 “ 通 入 惰性 气体 ”由 于 首 词 “ 通 入 ”没有 出 现在 
关键 词 词 首 , 使 得 其 首尾 度 为 最 小 值 0, 表 明 其 成 为 术 
语 的 可 能 性 较 小 。 

表 3 候选 术语 首尾 度 计算 示例 


候选 专利 术语 ” 首 词 或 尾 词 相应 关键 词 (频次 ) H 或 T HT 
荧光 纳米 颗粒 首 词 :荧光 ”荧光 探 针 (40) 60 40 
荧光 适 体 传感器 (20) 
尾 词 :颗粒 ”纳米 颗粒 (30) 40 
磁性 颗粒 (10 ) 
通 入 惰性 气体 ” 首 词 : 通 入 (0) 0 0 
尾 词 :气体 ”挥发 性 有 机 气体 (1) 3 
可 燃 气体 (2) 


计算 候选 术语 首尾 度 的 伪 代 码 如 下 : 

算法 :计算 候选 术语 的 首尾 度 

输入 :候选 术语 x 论文 关键 词 集 ,论文 集 Docs 

输出 :候选 术语 x 的 首尾 度 HT(x) 

1. wi , w, = CUT(x) // 使 用 分 词 工具 切 分 候选 术语 x, 将 切 分 
后 的 首 词 设 为 wi , 尾 词 设 为 w,。 

2. H(x) = 0 /设置 候选 术语 x 的 首 度 初始 值 为 0。 

3. T(x) = 0 /设置 候选 术语 x 的 尾 度 初始 值 为 0。 

4. HT(x) = 0 // 设 置 候选 术语 x 的 首尾 度 初 始 值 为 0。 

5. FOR 上 IN K DO /对 论文 关键 词 集 K 中 的 每 个 关键 词 大 做 
如 下 操作 

6. ,和 , = CUT (5) /使 用 分 词 工具 切 分 关键 词 上 ,将 切 分 
后 的 首 词 设 为 hh, 尾 词 设 为 。 

7. Ewi = = DO // 如 果 候 选 术语 x 的 首 词 wi 与 关键 词 
的 首 词 相同 , 则 累加 求 和 首 度 H。 


而 估计 其 成 为 术语 的 可 能 性 。 因 此 ,本 文 利用 关键 词 
信息 ,提出 候选 术语 的 首 度 、 尾 度 和 首尾 度 统计 特征 ， 
评估 修 选 术语 首 词 和 尾 词 的 正确 性 ,以 缓解 C-value 部 
分 边界 术语 识别 不 正确 问题 ,从 而 提高 术语 抽取 的 准 


8. N(k) = COUNT(k，Docs) // 统 计 关 键 词 在 论文 身 
Docs 中 出 现 的 次 数 。 

9. H(x) = H(x) + N(k) // 累 加 求 和 首 度 H。 

10. END IF 

11. ”下 w= = 各 DO /如 果 候 选 术语 * 的 尾 词 w 与 关键 词 
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上 的 尾 词 总 相同 , 则 累加 求 和 尾 度 T。 

12， N(k) = COUNT(E，Docs) /统计 关键 词 大 在 论文 集 
Docs 中 出 现 的 次 数 。 

13. T(x) = T(x) + N(k) /累加 求 和 尾 度 T。 

14. END IF 

15. END FOR 

16. HT(x) = min(H(x), T(x)) // 根 据 公 式 (7) ,选择 首 度 和 
尾 度 中 较 小 的 值 作为 首尾 度 值 。 
3.5 C-value 值 更 新 

将 基于 关键 词 统计 特征 的 信息 融入 到 C-value 之 
中 ,以 提高 专利 术语 抽取 准确 率 。 具 体 地 ,结合 领域 相 
关 度 DD, 形 成 D-C-value, 其 定义 为 : 

D-C-value(x) = (1 + D(x)) x C-value(x) 公式 (8) 

由 定义 可 知 , 当 候选 术语 C-value 值 越 大 且 领 域 相 
关 度 D 越 大 时 , 则 该 候选 术语 越 可 能 是 术语 ,从 而 缓解 
C; 强 ue 方法 中 低频 术语 无 法 被 抽取 的 问题 。 特 别 地 ， 
当 候 选 术语 的 领域 相关 度 为 0 时 , 则 D-C-value 退化 为 


结合 首尾 度 HT ,形成 HT-C-value ,其 定义 为 : 
HT-C-value(x) = (1 + HT(x)) xC-value(x) 
公式 (9) 
由 定义 可 知 , 当 候选 术语 C-value 值 越 大 , 且 其 首 
尾 忆 HT 越 大 时 , 则 该 候选 术语 越 可 能 是 术语 ,从 而 组 


人 


解 -Crvalue 方法 中 部 分 边界 识别 不 正确 的 问题 。 特 别 
5 到 候选 术语 的 首尾 度 为 0 时 , 则 HT-C-value 退化 为 
Xue 方法 。 

忆 同 时 考虑 领域 相关 度 和 首尾 度 信息 , 则 形成 D- 
HEC-value: 

OP-HT-C-value(x) = (1 +D(x)) x (1+HT(x)) x 
C-value (x) 公式 (10) 


4 实验 


4.1 数据 集 

为 了 验证 提出 模型 的 可 行 性 与 有 效 性 ,本 文选 取 
石墨 烯 专利 文献 进行 实验 。 石 墨 烯 是 已 知 材料 中 最 薄 
的 一 种 , 因 其 具有 独特 的 结构 , 集 优异 的 光学 、 化 学 、 电 
学 ,力学 等 特征 于 一 身 ,被 认定 为 新 型 潜力 材料 ,具有 
可 观 的 经 济 效益 和 广泛 的 产业 化 应 用 前 景 。 近 几 年 
来 ,石墨 烯 研 究 的 论文 数量 与 专利 申请 量 皆 呈 指 数 增 
长 趋势 。 

实验 专利 数据 基于 中 国 国家 知识 产权 局 专利 数据 
库 , 以 “石墨 烯 " 关 键 词 检索 中 国 近 5 年 来 (2014 -2018 
FE) 的 有 效 中 国 发 明 公 开 专 利 ( 检索 日 期 为 2018 年 11 
月 15 日 ) , 共 获 得 6 445 条 有 效 中 国 发 明 公 开 专 利 ,以 


pp 


其 题名 和 摘要 作为 专利 文本 集 。 实 验 论 文 数据 基于 万 
方 数 据 库 ,以 “石墨 烯 ” 关 键 词 检索 近 5 年 来 (2014 - 
2018 年 ) 北 大 核心 期 刊 论文 (检索 日 期 为 2018 年 11 
月 15 日 ) , 共 获 得 5 236 条 论文 数据 ,获取 论文 关键 词 
形成 论文 文本 集 。 
4.2 评估 指标 

鉴于 专利 文本 数据 较 多 ,采用 准确 率 P@ N 作为 
方法 的 评估 指标 : 


P@N= x100% 


公式 (11) 
其 中 ,N 为 常数 ,表示 方法 抽取 的 专利 术语 数 ,本 
实验 分 别 取 200 -2 000;r 表示 N 个 专利 术语 中 正确 的 
个 数 。 为 了 避免 主观 性 和 领域 知识 的 局 限 性 ,利用 百 
度 百科 . 维 基 、 互 动 百科 等 知识 网 站 查找 是 否 存在 对 应 
的 词 条 ,以 判断 被 抽取 术语 是 否 正确 。 


4.3 结果 
4.3.1 领域 相关 度 对 专利 术语 抽取 准确 率 的 影响 


实验 首先 研究 领域 相关 度 对 专利 术语 抽取 准确 率 
的 影响 。 为 此 ,将 相似 度 闵 值 8 分 别 设 为 0.2.0.4、 
0.6.0.8 和 1.0, 与 传统 的 C-value 方法 进行 比较 ,对 应 
的 方法 分 别 记 为 D-C-value-0. 2、D-C-value-0. 4、D-C- 
value-0.6、D-C-value-0.8 和 D-C-value-1. 0。 实 验 结果 
如 图 2 所 示 : 
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图 2 领域 相关 度 对 专利 术语 抽取 准确 率 的 影响 


由 图 2 可见 ,D-C-value-0.2、D-C-value-0.4 和 D-C- 
value-0.6 准确 率 低 于 C-value 方法 ,如 当 N =1000 时 ， 
D-C-value-0.2、D-C-value-0.4 和 D-C-value-0.6 分别 比 
C-value 方法 下 降 了 20.09% 、14.90% 和 3.61% ;而 D- 
C-value-0.8 和 D-C-value-1.0 准确 率 明 显 高 于 C-value 
方法 ,特别 地 ,D-C-value-0. 8 取得 了 最 高 准确 率 ,如 当 
N = 1000 时 ,D-C-value-0.8 和 D-C-value-1.0 比 C-value 
准确 率 提高 了 18. 69% 和 17.79% 。 这 表明 进行 专利 
术语 抽取 时 ,选择 与 候选 专利 术语 相似 度 不 大 的 关键 
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词 进行 领域 相关 度 特 征 统计 ,会 产生 噪声 数据 ,造成 准 
确 率 降 低 ; 而 通过 选择 与 候选 专利 术语 相似 度 较 大 的 
关键 词 进行 领域 相关 度 特 征 统计 则 能 够 提高 专利 术语 
抽取 的 准确 率 , 这 也 表明 了 利用 关键 词 计算 候选 专利 
术语 领域 相关 度 特征 对 专利 术语 抽取 的 有 效 性 ,后 续 
的 实验 将 相似 度 阀 值 设 为 0.8。 
4.3.3 ”首尾 度 对 专利 术语 抽取 准确 率 的 影响 

接着 ,实验 评估 首尾 度 对 专利 术语 抽取 的 影响 。 
为 此 比较 传统 的 C-value 术语 抽取 方法 与 添加 首尾 度 
的 HT-C-value 方法 的 专利 术语 抽取 准确 率 。 实 验 结 
见 图 3。 由 图 3 可 见 , 包 含 首尾 度 信息 的 HT-C-value 的 
准确 率 高 于 C-value 方法 ,如 当 N =1 000 时 ,HT-C-val- 
ue 的 准确 率 比 C-value 提高 了 14. 15% 。 这 表明 通过 
关键 词 统计 专利 候选 术语 的 首尾 度 寺 征 ,能够 缓解 C- 
" 方法 部 分 边界 识别 不 正确 的 问题 ,从 而 提高 专利 
术 谓 抽取 的 准确 率 。 
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基于 上 述 实验 ,研究 合成 领域 相关 度 和 首尾 度 特 
征 对 专利 术语 抽取 的 影响 。 为 此 ,将 领域 相关 度 和 首 
尾 度 融 入 到 C-value 之 中 ,得 到 D-HT-C-value 值 , 与 单 
一 特征 D-C-value 和 HT-C-value 进行 比较 ,并 将 C-val- 
ue 作为 基准 方法 。 实 验 结 果 见 图 4。 由 图 4 可 见 ,D- 
HT-C-value 方法 准确 率 最 高 。 例 如 , 当 N =1 000 时 ， 
D-HT-C-value 的 准确 率 比 C-value .D-C-value 和 HT-C- 
value 方法 分 别 高 27.49% .8.80% 和 13.34% 。 这 表明 
比 起 单一 特征 ,将 领域 相关 度 和 首尾 度 同 时 融入 到 C- 
value 中 ,能 够 获得 比 单一 特征 融入 C-value 之 中 更 好 
的 准确 率 ,特别 地 ,在 这 两 个 特征 中 ,领域 相关 度 对 专 
利 术语 抽取 的 准确 率 影 响 更 大 。 
4.3.4 与 其 他 方法 比较 

最 后 ,使 用 D-HT-C-value 方法 与 一 些 典 型 的 C- 
value 改进 方法 进行 比较 。 欲 比较 的 方法 有 如 下 儿 种 : 
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(1)C-value: 使 用 C-value 度量 候选 术语 术语 度 ; 

(2)PMI-C-value: 将 候选 术语 的 互信 息 融 入 C-val- 
ue 之 中 ,形成 PMI-C-value 方法 。 互 信息 是 一 种 常用 的 
单元 性 指标 ,通过 计算 候选 术语 中 各 词 成 分 的 共 现 频 
次 来 衡量 这 些 成 分 之 间 的 结合 强度 ; 

(3 ) En-C-value: 将 候选 术语 的 邻接 炉 融 入 C-value 
值 之 中 ,形成 En-C-value 方法 。 邻 接 炉 根据 候选 术语 
左右 邻接 词 的 不 确定 性 消除 部 分 候选 术语 边界 不 正确 
的 问题 。 邻 接 录 越 大 ,表明 候选 术语 其 邻接 词 包 含 的 
言 息 越 多 ,其 成 为 术语 的 概率 越 大 ; 

(4)D-HT-C-value: 本 文 提出 的 基于 论文 关键 词 ， 
将 领域 相关 度 和 首尾 度 融 入 C-value 方法 之 中 。 

图 5 为 实验 结果 : 
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由 图 5 可 见 ,PMI-C-value En-C-value 和 D-HT-C- 
value 方 法 的 准确 率 较 C-value 方法 更 高 ,例如 当 N = 
1 000 时 ,PMI-C-value .En-C-value 和 D-HT-C-value 方法 
的 准确 率 比 C-value 方法 提高 了 6. 58% 、3. 89% 和 
26.68% ,特别 地 ,D-HT-C-value 方法 取得 了 最 高 准确 
率 。 昌 然 一 些 低频 专利 候选 术语 可 以 通过 互信 息 提 高 
其 成 为 候选 术语 的 可 能 性 ,但 是 互信 息 也 造成 一 些 高 
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频 正 确 术语 具有 较 低 的 互信 息 值 ,从 而 使 得 术语 抽取 
的 准确 率 提升 效果 有 限 ; 而 在 专利 术语 中 一 些 非 术语 
高 频 词 串 反 复出 现 ,具有 较 多 的 邻接 词 ,所 以 使 得 结合 
邻接 炉 方法 抽取 术语 的 准确 率 改善 有 限 ;而 通过 论文 
文本 集 获得 候选 术语 的 领域 相关 度 和 首尾 度 能 较为 有 
效 地 改善 C-value 的 准确 度 , 表 明基 于 论文 关键 词 ,将 
领域 相关 度 和 首尾 度 融 入 C-value 方法 的 有 效 性 。 


5 总 结 


[=| 


目前 的 专利 术语 抽取 方法 主要 存在 低频 术语 无 法 
被 识别 以 及 部 分 边界 识别 不 正确 等 问题 ,专利 术语 抽 
取 结 果 仍 有 较 大 的 提升 空间 。 以 往 的 研究 主要 使 用 专 
利文 本 本 身 的 一 些 特征 信息 ,以 提高 专利 术语 抽取 准 
确 牵 。 论 文 和 专利 具有 较 强 的 相关 性 ,论文 中 关键 词 
标 玉 不 是 随意 的 ,一 般 为 特定 领域 成 熟 术语 或 词组 。 
关键 词 包 含 丰富 的 特定 领域 知识 。 因 此 ,针对 目前 专 
利 必 语 自动 抽取 方法 对 外 部 资源 的 利用 率 较 低 的 问 
题 : 为 了 弥补 因 专利 文本 集 自 身 的 信息 不 足 而 制约 专 
科 杰 语 抽取 效果 这 一 缺陷 ,本 文 首次 提出 利用 丰富 的 
诊 这 关键 词 知识 获取 专利 文本 之 外 的 有 效 特征 ,以 提 
总 赵 利 术语 抽取 效果 。 该 方法 根据 相关 论文 的 关键 词 
知 疯 ,分 别提 出 领域 相关 度 和 首尾 度 等 两 类 特征 衡量 
候选 术语 成 为 术语 的 可 能 性 ,并 将 这 些 特征 融和 人 到 专 
利 洒 语 抽取 的 C-value 方法 之 中 ,形成 结合 论文 关键 记 
的 (Cyvalue 方法 。 实 验 结果 表明 ,与 传统 的 术语 抽取 广 
法 幅 比 ,结合 论文 关键 词 的 方法 能 够 有 效 地 提高 专利 
术 滞 抽取 的 准确 率 。 
〇 未 来 的 研究 将 尝试 获取 百度 百科 维基、 互动 百科 
等 知识 网 站 的 词 条 知识 ,以 进一步 提高 专利 文本 术语 
抽取 的 准确 率 。 
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Absiract: | Purpose/ significance | In order to make up for the shortcomings of the patent text collection itself to 


it the effect of patent term extraction, this paper proposes to use the rich keyword knowledge to obtain effective 
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tures outside the patent text to improve the patent term extraction effect. | Method/process | According to the 
keyword knowledge of related papers, two kinds of characteristic, degree of domain relevance and degree of head & 
are proposed to measure the possibility that candidate terms become terminology, and these characteristics are in- 
6GGiporated into the traditional method of patent term extraction. | Result/conclusion | The experimental results show 
fhat the degree of domain relevance and the degree of head & tail of the candidate terms obtained by using the key- 
-Word information of the papers make the method of combining the keyword knowledge of the papers significantly high- 
@ than the accuracy of the traditional term extraction method. 
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